Python爬取起点中文网小说排行榜信息(上海线下培训作业)
上周末两天的天善智能上海线下培训已经结束啦~
小编带大家从爬虫零基础到进阶飞飞飞
以下是部分课程内容和学员成果展示
大家都在听小编讲课【听的好认真啊】
学员课堂实际操作时间【学一点就要及时动手操作一下】
小编在课上给学员答疑【有问题要及时解决】
助教知己在给学员答疑【小编的好朋友哈】
学员们相互帮助解决问题【好有爱啊啊啊】
最后的合影【有好多小姐姐也来学爬虫技术】
课前准备工作
课前准备工作
必须让每个学员都学到东西
学员不仅学到技能,还认识了新朋友
课后答疑
学员来交作业啦【好有成就感啊】
第二天最后留下的作业是爬取起点小说排行榜信息
作业要求如下:
以下是部分学员完成情况:
01
作者:柳东
原文链接:https://ask.hellobi.com/blog/ld634/10455
两天的爬虫线下培训结束了,感谢大伟老师和工作人员们的辛苦付出,以下为本次作业的简述:
一、先处理单页信息的爬取:
输出结果后发现网页被重定向至其他网页,并非需要爬取的排行榜,于是加入代理及异常机制尝试:
输出结果正常:
接着,加入解析器,通过循环,把需要的信息先放入字典,再将全部信息分类汇总入列表:
引入pandas,将信息转化为DataFrame:
输出结果第一页所需信息:
至此,单页爬取完成。
二、爬取前200名的信息:
单页爬取成功,加入循环,实现多页爬取,并输出结果,以下为完整代码:
以下为完整输出结果:
如有发现问题,欢迎各位老师同学的批评指正。
再次感谢大伟老师,各位天善的工作人员及各位同学!
02
作者:走马兰台
原文链接:https://ask.hellobi.com/blog/ysfyb/10484
周末两天的培训结束了,非常感谢这段时间老师的热情指导,现对起点小说排名信息的爬取已完成,具体思路如下:
第一步:首先选取起点的网站网址:https://www.qidian.com/rank/hotsales,先尝试用代理和cookies进入网址,发现得到的界面源代码都没有问题,然后去掉代理和cookies发现也能爬取信息
使用代理和headers运行程序:
不使用代理运行程序结果:
第二步:查看起点排行榜多个界面,发现只是后面的page=不同,取出所有的源代码信息,发现所有内容都在class=book-mid-info的a标签上,然后用BS4来对整个网页内容的提取,使用find_all和css的select方法都可以得到结果,结果如下:
find_all方法:
select方法:
第三步:在这里使用css的select方法提取数据,然后把数据转变为pandas的DataFrame格式,因为数据都是在同一列,需要对数据进行切片及去掉原有索引,然后用pandas的concat把书名、作者等信息进行合并
数据传入DataFrame结果:
用pandas的concat把作者等信息进行合并运行后的结果:
最后就是保存在csv中,因为格式不同,需要对数据使用gbk格式写入
下图即是所有的代码:
03
作者:Zexuan
原文链接:https://ask.hellobi.com/blog/Kacey/10551
上周末在上海进行了2天的python爬虫培训,感谢天善智能感谢王大伟老师,要开始入坑啦!
上课基本能听懂,但是回来自己码代码就会发现各种问题~~~~(>_<)~~~~
把python的基础知识补了一遍,完成了老师留下的作业。
要求:
https://www.qidian.com/rank/hotsales?page=1
爬取前200名排行榜的作者,书名,分类,更新的信息
建议先爬取一页
要求使用BeautifulSoup爬取
交作业啦!
虽然只是一个简单的交作业,不过完成了还是超有成就感的!!!
小编鼓励大家写博客记录自己的学习成果
方便以后用到回顾,还能分享给需要的人虽然这期的上海站线下爬虫培训结束了
以后还会有的,除了上海还可能去其他城市哦
除了网络爬虫
以后还会开机器学习,数据分析挖掘之类的线下课程哦
敬请期待~
小编的免费Python入门课程已经登场,等你来撩~
已经有1100+小伙伴来学习咯
点击阅读原文,立即学习
Python爱好者社区历史文章大合集:
Python爱好者社区历史文章列表(每周append更新一次)
关注后在公众号内回复“课程”即可获取:
0.小编的Python入门视频课程!!!
1.崔老师爬虫实战案例免费学习视频。
2.丘老师数据科学入门指导免费学习视频。
3.陈老师数据分析报告制作免费学习视频。
4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。
5.丘老师Python网络爬虫实战免费学习视频。